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摘 要 随 着 验证 性 因子 分 析 模 型 的 应 用 ,信和 度 研 究 进入 了 新 新 的 发 展 阶 段 。 新 世纪 前 20 年 国内 有 关 测 验 信 
度 的 研究 有 三 条 发 展 主线 ,一 是 基于 验证 性 因子 模型 的 信和 度 发 展 ， 包 括 同 质 性 系数 、 合 成 信 度 、 最 大 信和 度 等 ; 二 
是 数据 类 型 的 拓展 ， 包 括 两 水 平和 追踪 数据 的 信 度 ; 三 是 信 度 用 途 的 拓展 ， 如 评分 者 信 度 、 编 码 者 信 度 等 。 对 
于 通常 的 测验 (题目 之 间 的 测量 误差 不 相关 )， 如 果 a 系数 够 高 ， 信 度 就 够 高 ; 否则 使 用 合成 信 度 。 如 果 一 个 统 
计 模 型 中 所 有 变量 的 合成 信 度 都 很 高 (超过 0.95)， 使 用 显 变 量 建 模 与 使 用 潜 变 量 建 模 的 结果 差别 不 大 ; SN, 
使 用 潜 变 量 建 模 较 好 。 
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在 心理 、 教 育 、 管 理 等 领域 ， 研 究 者 广泛 使 针对 a 系数 的 不 足 提出 了 改进 的 信和 度 估计 的 B 和 
用 问卷 测验 进行 实证 研究 ,测验 信 度 (Geliability) Y 系数 ( 陈 希 镇 , 1991; 谢 小 庆 , 1998), 但 这 些 工 作 
是 测验 结果 的 稳定 性 (stability) 或 一 致 性 (consistency) 都 和 a 系数 一 样 没 有 从 信和 度 的 定义 出 发 ， 因 此 提 
程度 ， 是 衡量 测验 质量 的 一 个 重要 指标 。 信 和 度 反 出 的 信和 度 估计 方法 都 只 是 某 种 程度 上 比 a 系数 有 
映 了 测验 的 可 靠 性 和 精确 性 ， 即 使 一 个 完美 的 研 改进 , 但 难 有 根本 的 突破 。 随 着 验证 性 因子 分 析 
究 设 计 也 无 法 弥补 不 可 靠 和 不 精确 测量 所 带 来 的 (confirmatory factor analysis, CFA)AY3| A, #rttt 
缺陷 ,所 以 , 评价 测验 信和 度 是 进行 数据 分 析 的 必 纪 伊始 ， 国内 信和 度 研究 进入 了 思 新 的 发 展 阶段 。 
要 前 提 和 重要 步 又 ( 叶 宝 娟 等 , 2012)。 新 世纪 前 20 年 , 测验 信和 度 是 仅 次 于 结构 方程 

信和 度 的 定义 以 经 典 测 验 理论 的 真 分 数 模型 模型 的 心理 统计 方法 研究 热点 ( 温 忠 鹿 等 , 2021)。 
X=T+E 为 基础 ， 其 中 忆 为 观测 分 数 ,了 为 真 分 数 , 忆 国内 学 者 对 信和 度 的 研究 主要 集中 于 寻找 更 加 合适 
为 测量 误差 。 对 于 被 试 总 体 ， 假设 X、T、E 满足 : 的 信 度 指标 ， 以 及 如 何在 不 同 的 情况 下 更 加 精确 
误差 的 均值 为 0， 误 差 与 真 分 数 零 相关 ,各 题目 地 估计 信和 度 。 以 中 国 知 网 (https://www.cnki.net/) 
误差 之 间 零 相关 。 测 验 信和 度 px 定义 为 真 分 数 的 方 全 文 数据 库 为 数据 源 ， 出 版 年 限 设 为 2001~2020 
差 与 观测 分 数 的 方差 之 比 : px = SMSx (Lord & ”年 ,关键 词 包括 : 信和 度 、 测 验 信和 度 、 重 测 信 度 、 
Novick, 1968; 重庆 成 ， 刘 红云 , 2002)。 在 有 了 样 FARRE, DRE., o 系数 、 同 质 性 系数 、 内 
本 数据 后 ， 可 以 得 到 观测 分 数 的 方差 , 但 在 经 典 部 一 致 性 系数 、 合 成 信 度 、 最 大 信和 度 、 评 分 者 信 
测验 理论 中 ， 真 分 数 的 方差 却 无 法 估计， 因而 研 。 度 、 编 码 者 信和 度 、 信 度 概 化 ， 经 筛 查 得 到 有 关 信 
究 者 只 好 用 一 些 奉 代 的 方法 去 评估 信和 度 ， 这 就 有 度 的 方法 学 研究 论文 51 篇 ( 见 表 1)。 从 发 表 刊 物 
了 人 们 熟知 的 重 测 信和 度 、 复 本 信和 度 、 分 半 信 度 、a 看 ， 大 多 数 文 章 都 发 表 在 心理 学 期 刊 上 (33 f), 
系数 (coefficient alpha) 等 。 这 可 能 与 心理 学 研究 常 需要 使 用 问卷 并 报告 问卷 

直至 上 址 纪 末 ， 国 内 信 度 研究 的 成 果 主 要 是 。 ”的 信和 度 有 关 ， 其 中 《心理 科学 》17 篇 , 《心理 学 
探 新 》6 篇 , 《心理 学 报 》4 篇 , 《中 国 临床 心理 
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#1 2001~2020 年 国内 信 度 的 方法 学 研究 文献 一 览 
类 别 文献 


a 系数 安 胜 利 等 (2001); 孟 庆 成 等 (2002); 陈 炳 为 等 (2005); 席 仲 恩 等 (2007); KE BE SE 
(2008); 刘 红 云 (2008); 关 守 义 (2009); 蒋 小 花 等 (2010); 刘 拓 等 (2011); Hh AR 
(2011); 李 春 会 等 (2012); 叶 宝 娟 , 温 忠 腾 (2013a); 王 孟 成 等 (2014) 


同 质 性 系数 丁 树 良 等 (2002); 重庆 茂 等 (2002); 顾 海 根 等 (2005); 刘 红 云 (2008); 陈 希 镇 等 
(2011); 温 忠 麟 等 (2011, 2018); 叶 宝 娟 , 温 忠 麟 (2012b); 顾 红 舌 等 (2014, 2017) 

合成 信 度 张力 为 (2002); 屠 金 路 等 (2005，2010); 徐 万 里 (2008); 温 忠 麟 等 (2011); 叶 宝 娟 , 温 
(2011, 2012a); 叶 宝 娟 等 (2013，2014，2015); 吴 瑞 林 等 (2012); 叶 宝 娟 (2012); 
杨 强 等 (2014a, 2014b); 韦 嘉 等 (2017) 

BK fae 叶 宝 娟 , 杨 强 (2011); 田 雪 塌 等 (2019) 

单 指标 信 度 方 敏 (2009); 王 孟 成 等 (2014) 

整个 题目 集 分 数 的 信和 度 叶 宝 娟 , 杨 强 (2011) 

两 水 平 研究 的 信 度 叶 宝 娟 ,， 温 忠 刨 (2013p); 刘 霖 芯 等 , (2018); 田 雪 塌 等 (2019) 

追踪 研究 的 信 度 叶 宝 娟 等 (2012) 

评分 者 信 度 严 芳 等 (2002); 孙 晓 敏 等 (2005); 何 佳 等 (2007); 蒋 小 花 等 (2010); 李斌 等 (2011) 

编码 者 信 度 徐 建 平等 (2005) 

认 知 诊断 属性 分 类 一 致 性 信 度 5b GE (2018); 汪 文 义 等 (2018, 2020) 

差异 分 数 的 信和 度 关 丹 丹 等 (2005) 

信 度 概 化 关 丹 丹 等 (2004); 焦 璨 等 (2009) 


TE: 表 中 文献 按 发 表 时 间 先 后 排序 


量 与 评价 (理论 版 )》3 篇 , 《中 国 卫 生 统 计 》3 篇 ， 
《统计 与 信息 论坛 》2 篇 ,其余 10 篇 。 从 研究 内 
容 来 看 ,研究 最 多 的 是 a 系数 ; 其 次 是 合成 信和 度 
(composite reliability) 和 同 质 性 系数 (homogeneity 
coefficient), 

国内 测验 信和 度 的 研究 有 三 条 发 展 主线 ， 第 一 
条 主线 是 基于 验证 性 因子 模型 的 测验 信 度 的 发 展 ， 
从 围绕 a 系数 的 研究 发 展 到 基于 验证 性 因子 模型 
的 信 度 研究 , 包括 同 质 性 系数 、 合 成 信 度 、 最 大 
信 度 (maximum reliability)、 单 指标 信 度 和 整个 题 
目 集 分 数 的 信和 度 ; 第 二 条 主线 是 数据 类 型 的 拓展 ， 
从 单 水 平 数 据 的 测验 信 度 发 展 到 多 水 平 数据 和 追 
踪 数 据 ( 追 踪 数 据 也 可 看 成 是 多 水 平 数据 ) 的 测验 
信 度 ; 第 三 条 主线 是 信和 度 用 途 的 拓展 ， 从 测验 本 
身 的 信 度 发 展 到 其 他 用 途 的 信和 度 ， 如 评分 者 信 
度 、 编 码 者 信和 度 、 认 知 诊 断 属性 分 类 一 致 性 信 度 


Q = 


k [ | 0) 


k-1 总 分 方差 
其 中 大 为 量 表 中 的 题 数 ， 根 据 样本 计算 a 系数 时 
将 方差 改 为 样本 方差 便 可 。o 系数 可 以 用 SPSS 软 
件 计算 得 出 ， 也 可 在 SAS 软件 中 调用 PROC 
CORR 过 程 计 算 a 系数， 只 要 在 选择 项 加 上 参数 a 
即 可 ( 马 文 军 , Y, 2000), 也 可 用 Mplus 软件 编 
写 程序 计算 a 系数 ( 王 重 成 ， 叶 宝 娟 , 2014). 
a 系数 是 一 个 总 体 参 数 , 在 实证 研究 中 通常 
用 样本 的 oa 系数 来 估计 ， 最 好 同时 计算 其 置信 区 
间 ， 以 此 得 到 在 所 研究 的 总 体 上 重复 取样 时 a 系 
数 的 精确 性 (Raykov & Shrout, 2002; Zinbarg et al., 
2006)。 尤 其 在 样本 容量 不 大 、a 较 小 时 , 非常 有 
必要 报告 a 系数 的 置信 区 间 (Maydeu-Olivares et 
al., 2007)。 叶 宝 娟 和 温 忠 膀 (2013a) 介 绍 了 10 种 计 


和 差异 分 数 的 信和 度 等 。 以 下 将 按照 这 三 条 主线 逐 


fo 系数 置信 区 间 的 方法 ， 并 通过 模拟 研究 比较 
了 其 中 较 好 的 7 种 方法 (包括 Fisher 法 、Bonett-02 


一 评述 国内 新 世纪 前 20 年 的 信 度 研究 。 
1 EX a 系数 的 研究 


1.1 a 系数 的 点 估计 和 区 间 估 计 
a 系数 是 最 常用 的 信和 度 指标 ， 信 度 的 发 展 大 
都 以 a 系数 为 基础 ,a 系数 的 计算 公式 为 : 


法 、Bonett-10 法 、 精 确 Koning-Franses 法 、 渐 近 
ID 法 、 渐 近 Koning-Franses 法 和 ADF 法 )。 结 果 
发 现 Bonett-10 法 和 精确 Koning-Franses 法 较 好 。 
这 两 种 方法 都 比较 简单 ， 只 需要 样本 的 a 值 、 测 
验 题 数 、 被 试 人 数 及 F 临界 值 ， 通 过 简单 的 运算 
便 可 得 到 a 系数 的 置信 区 间 。 
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12 a 系数 和 信和 度 的 关系 

许多 研究 表明 , a 系数 不 能 很 好 地 估计 测验 信 
度 ( 陈 炳 为 等 ， 2005; 刘 拓 和 ， 戴 晓 阳 ,2011; BH 
会 ， 朱 永忠 , 2012)。 刘 红云 (2008) 通 过 模拟 研究 表 
明 , 在 基本 t- 等 价 (essentially t equivalent) 测 验 的 
条 件 下 ( 即 任意 两 个 题目 的 真 分 数 只 相差 一 个 常 
数 , Graham, 2006), a 系数 于 测验 信和 度 ， 否则 a 系 
数 容易 低估 测验 信和 度 。 有 时 候 a 系数 甚至 还 会 出 
现 负 值 ( 席 件 恩 , EJIRE, 2007)。 温 忠 迄 和 叶 宝 娟 
(2011) 通 过 梳理 文献 后 指出 ， 如 果 (i) 各 题 的 误差 
不 相关 (这 个 条 件 容易 满足 ); (让 测验 是 基本 + 等 价 
(这 个 条 件 很 强 , 通常 的 测验 难以 满足 )， a 系数 等 
于 测验 信 度 ; 如 果 满 足 条 件 (i), 但 不 满足 条 件 (ii)， 
a 系数 小 于 信和 度 。 总之， 如果 各 题 的 误差 不 相关 , a 
系数 是 信 度 的 下 限 ( 即 有 可 能 低估 信和 度 ); 否则 oa 
系数 有 可 能 高 估 信 和 度 。 多 数 情况 下 ,各 题 的 误差 
是 不 相关 的 , 4 a 系数 高 到 可 以 接受 , 那么 测验 
信和 度 就 可 以 接受 ,所 以 a 系数 还 可 以 继续 使 用 ( 温 
ET, EL, 2011)。 
1.3 ”对 a 系数 的 误解 和 误 用 

传统 上 将 a 系数 称 为 内 部 一 致 性 信 度 或 者 同 
质 性 系数 ， 但 实际 上 a 系数 不 能 用 来 衡量 测验 的 
内 部 一 致 性 ， 也 不 能 用 来 衡量 测验 的 同 质 性 ( 温 忠 
We, UP Seda, 2011)， 因 为 题目 数量 的 增加 会 导致 a 
系数 的 增加 ,哪怕 是 多 维度 的 测验 ， 只 要 题目 够 多 ， 
a 系数 就 会 高 ( 乔 庆 茂 ， 刘 红云 , 2002)。 已 有 研究 发 
现 a 系数 高 不 代表 测验 是 同 质 的 ( 刘 红 云 , 2008)。 
为 了 避免 研究 者 为 提高 a 系数 而 增加 多 余 条 目的 
行为 ,有 人 认为 a 系数 不 宜 超过 0.9 ( 安 胜利 ， 陈 
SE), 2001; MRE, 刘 红 云 , 2002)。 后 面 我 们 会 
看 到 ,合成 信和 度 可 以 用 来 衡量 测验 的 内 部 一 致 性 ， 
同 质 性 则 要 使 用 同 质 性 系数 来 衡量 ( 见 第 2 节 )。 

在 应 用 o 系数 的 过 程 中 容易 忽视 正 态 分 布 这 
使 用 前 提 。 因 为 a 系数 以 经 典 测量 理论 的 真 分 
数 模型 为 基础 ,但 经 典 测量 理论 是 以 正 态 分 布 为 
前 提 的 。 焦 璨 等 (2008) 通 过 模拟 研究 表明 ， 当 测验 
数据 为 非 正 态 时 ， 偏 度 越 大 , a ABO). RRE 
建议 ， 先 将 非 正 态 数据 进行 聚 类 ,假设 聚 为 3 个 
组 ， 则 分 别 求 3 个 组 的 w 系 数 , 用 多 个 w 系 数 来 描 
述 测验 可 靠 性 。 关 守 义 (2009) 进 一 步 指出 ，o 系数 
在 实际 应 用 中 除了 需要 满足 正 态 分 布 的 前 提 ， 还 
需要 确保 每 个 个 体 方差 相同 、 每 次 观测 均 相 互 独 
立 , 并 且 各 测量 题目 需要 具有 相同 的 心理 刻度 。 


2 基于 验证 性 因子 模型 的 测验 信 度 


随 着 验证 性 因子 模型 (包括 双 因 子 模型 ) 的 引 
入 ,信和 度 研究 得 到 了 迅猛 发 展 ， 其 中 人 研究 最 多 且 
成 果 最 丰富 的 当 属 同 质 性 系数 和 合成 信和 度 。 

21 同 质 性 系数 

同 质 性 是 指 所 有 题目 都 测量 了 相同 的 特质 
(Revelle & Zinbarg, 2009; 刘 红 云 , 2008)， 如 果 所 
有 题目 之 间 的 相关 都 高 ， 则 同 质 性 高 。 无 论 单 维 
还 是 多 维 测验 , 都 可 以 考虑 测验 同 质 性 。 

2.1.1 单 维 测验 的 同 质 性 系数 

其 实 新 世纪 前 后 国内 已 经 有 学 者 发 现 a 系数 
不 能 很 好 地 衡量 同 质 性 ， 提 出 了 一 些 新 的 同 质 性 
指标 。 陈 希 镇 (1991) 提 出 了 B 系数 ， 谢 小 庆 (1998) 
提出 了 y 系数 ， 丁 树 良 和 周 新 莲 (2002) 提 出 & AK 
数 。 这 些 系数 都 只 是 某 种 程度 上 比 a 系数 有 改进 ， 
但 也 和 a 系数 一 样 , 没有 从 信 度 的 定义 出 发 ， 所 
以 没有 根本 上 的 突破 。 

基于 验证 性 因子 模型 , Raykov (2001) 提 出 用 p 
系数 作为 单 维 测验 (也 称 为 同属 测验 ) 的 同 质 性 系 
数 ,， 这 是 方法 上 的 突破 。 在 建立 单 因子 模型 后 ， 整 
份 测验 的 总 分 = (题目 的 因子 负荷 之 和 ) x 因子 
+ (题目 误差 之 和 )， 加 号 前 面 的 为 真 分 数 部 分 ， 加 
号 后 面 的 为 误差 部 分 。 这 样 ， 总 分 的 方差 就 可 以 
分 解 为 真 分 数 方差 和 误差 方差 。 将 信和 度 的 定义 应 
用 于 总 分 ， 就 得 到 p 系数 ， 它 等 于 测验 总 分 的 方 
差 中 ， 真 分 数 方差 所 占 的 比例 (Raykov，2001; 陈 
希 镇 ， 李 学 娟 , 2011)。p 系数 可 以 用 任意 一 款 结构 
方程 软件 计算 得 到 。 

顾 海 根 和 李 超 (2005) 采 用 概 化 理论 的 研究 方 
法 , 对 p 系数 、a 系数 、B 系数 、y 系数 、& 系数 进 
行 了 比较 研究 。 结 果 发 现 ,p 系数 最 优 ， 表现 在 p 
系数 最 接近 信和 度 的 真 值 , a 系数 最 劣 , B、y、& 系数 
基本 处 于 一 个 水 平 , PF pA a 系数 之 间 。 因 此 ， 
应 当 将 p 系数 作为 单 维 测验 的 同 质 性 系数 指标 。 
2.1.2 多维 测验 的 同 质 性 系数 

对 于 多 维 测验 , 在 决定 将 多 个 维度 的 测验 分 
数 合 成 测验 总 分 时 ， 应 当 考虑 测验 同 质 性 的 高 
低 。 如 果 测 验 同 质 性 高 (例如 大 于 0.5), 合成 总 分 
是 有 意义 的 ( 温 忠 及 等 , 2018); 如 果 同 质 性 太 低 
合成 总 分 没有 什么 意义 ， 以 合成 总 分 为 基础 进行 
的 统计 分 析 也 就 没有 什么 意义 ， 这 时 应 当 以 维度 
为 变量 进行 统计 分 析 。 
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估计 同 质 性 系数 可 以 使 用 双 因 子 模型 (bi- 
factor model， 详 见 : MAA 等 , 2014)。 在 双 因 子 
模型 中 ,测验 总 分 的 方差 就 可 以 分 解 为 三 部 分 : 
全 局 因子 分 数 的 方差 、 局 部 因子 分 数 的 方差 和 误 
差 方 差 。 测 验 的 同 质 性 系数 定义 为 : 测验 总 分 的 
方差 中 , 全 局 因子 分 数 方差 所 占 的 比例 ， 有 些 文 
献 将 其 记 为 on (Revelle & Zinbarg, 2009; yi E, 
叶 宝 娟 , 2011). 

叶 宝 娟 和 温 忠 迄 (2012b) 用 Delta 法 推导 出 计 
算 同 质 性 系数 的 标准 误 公 式 ， 进 而 计算 其 置信 区 
间 。 他 们 通过 模拟 比较 了 用 Delta 法 和 Bootstrap 
法 计算 的 置信 区 间 ， 发 现 两 者 差异 很 小 。 他 们 还 
提供 了 简单 的 计算 多 维 测验 的 同 质 性 系数 及 其 置 
信 区 间 的 LISREL 和 Mplus 程序 。 

与 同 质 性 密切 相关 的 一 个 概念 是 单 维 性 。 在 
双 因 子 模型 中 ,将 全 部 题目 的 全 局 因子 分 数 的 方 
差 相 加 是 全 局 因子 解释 的 方差 将 全 部 题目 的 局 
部 因子 分 数 的 方差 相 加 后 再 加 上 全 局 因子 解释 的 
方差 就 是 公共 方差 。 全 局 因子 对 公共 方差 的 解释 
比例 (explained common variance, ECV) = (各 题 的 
全 局 因子 分 数 的 方差 之 和 ) / (各 题 的 全 局 因子 分 
数 的 方差 之 和 + 各 题 的 局 部 因子 分 数 的 方差 之 
All). ECV 通常 作为 单 维 性 指标 (Bentler 2009), 用 
来 判断 多 维 测 验 的 单 维 倾向 性 的 程度 。 如 果 ECV 
超过 0.7， 可 以 认为 测验 是 单 维 的 ( 磊 红 舌 ， 温 忠 
麟 , 2017; Reise, 2012)。ECYV 指标 可 用 Mplus 软件 
进行 计算 ( 王 重 成 ， 叶 宝 娟 ，2014; MA, 温 忠 
WE, 2017). 

综 上 可 知 ， 同 质 性 系数 和 单 维 性 指标 ECV 是 
两 个 同 源 指标 ， 都 源 于 双 因 子 模型 将 每 个 题目 分 
解 为 三 个 部 分 ， 如 果 从 整 份 测验 的 总 分 人 手 进 行 
分 析 ， 则 可 得 同 质 性 系数 ; 如 果 从 题目 的 方差 人 
手 进 行 分 析 ， 则 可 得 ECV。 随 着 全 局 因子 的 方差 
的 变 大 , 同 质 性 系数 和 ECV 都 会 变 高 。 两 者 的 区 
别 也 明显 ， 因 为 ECV 没有 涉及 误差 方差 . 单 维 测 
验 的 同 质 性 不 一 定 高 (因为 可 能 误差 方差 大 )。 但 同 
质 性 系数 越 高 , ECV 也 越 高 。 

2.13 ”题目 表述 效应 对 同 质 性 系数 的 影响 

题目 表述 效应 是 指 由 题目 表述 方式 的 差异 
(如 正 向 题 和 反 向 题 ) 引 起 的 与 测量 内 容 无 关 的 系 
统 变 异 。 题 目 表述 效应 模型 本 质 上 是 一 种 双 因 子 
模型 ， 包括 全 局 因子 (所 测 特质 G， 影响 全 部 题 
目 )、 局 部 因子 (如 正 向 题目 效应 因子 F1, 反问 题 


目 效 应 因子 F2) 和 测量 误差 。 评 价 这 类 测验 的 同 
质 性 系数 可 以 了 解 ， 在 排除 了 题目 表述 效应 和 测 
验 误差 引起 的 变异 之 后 ， 所 测 特 质 的 变异 占 总 变 
异 的 比例 ， 进 而 评价 合成 总 分 是 否 有 意义 。 顾 红 
和 硕 和 温 忠 麟 (2014) 发 现 忽 视 题 目 表 述 效 应 会 高 估 
测验 的 同 质 性 系数 , 韦 嘉 等 (2017) 发 现 忽视 题目 表 
述 效 应 ， 还 会 高 佑 测验 的 a 系数 和 合成 信和 度 。 
22 AREE 

2.2.1 合成 信和 度 的 点 估计 和 区 间 估 计 

合成 信和 度 是 量 表 的 合成 分 数 (均值 或 者 总 分 ) 
的 信和 度 。 对 于 单 维 测验 , 合成 信和 度 与 同 质 性 系数 
相同 ( 温 忠 刨 ， 叶 宝 娟 ，20110)， 即 测验 总 分 的 方差 
中 真 分 数 方差 所 占 的 比例 。 单 维 测验 的 合成 信和 度 
可 用 SPSS 软件 ( 杨 强 等 , 2014b) 、LISREL 和 
Mplus $F ORERE, IFEI, 2011) 计 算得 到 。 

对 于 多 维 测 验 , 使 用 双 因 子 模型 将 总 分 的 方 
差分 解 为 三 部 分 : 全 局 因子 分 数 的 方差 、 局 部 因 
子 分 数 的 方差 和 误差 方差 。 测 验 的 合成 信和 度 定义 
为 : 测验 总 分 方差 中 , 全 局 因子 和 所 有 局 部 因子 
分 数 方差 所 占 的 比例 ， 有 些 文献 将 其 记 为 @ 
(Revelle & Zinbarg, 2009; jm MAW, 叶 宝 娟 , 2011)。 
总 分 的 方差 中 ， 如 果 将 误差 方差 之 外 的 都 理解 为 
真 分 数 的 方差 ， 按 信 度 定义 计算 得 到 的 就 是 合成 
信 度 。 多 维 测验 的 合成 信和 度 可 用 LISREL ( 徐 万 里 
2008; 屠 金 路 等 , 2010) 和 Mplus ( 王 孟 成 , 叶 宝 
娟 , 2014) 等 结构 方程 软件 计算 得 到 。 

值得 注意 的 是 ,合成 信和 度 在 计算 测验 总 分 的 
时 候 ， 通 常 直接 将 题目 得 分 相 加 求 和 ， 即 将 测验 
所 有 的 题目 赋予 了 同样 的 权重 (权重 为 1)。 也 有 研 
究 者 利用 验证 性 因子 分 析 的 结果 , 选择 一 组 权重 
(每 个 题目 的 权重 = 该 题目 的 因子 负荷 /该 题目 的 
误差 方差 )， 将 题目 得 分 乘 以 该 题 的 权重 ， 再 求 和 
合成 一 个 总 分 ， 此 时 求 得 的 合成 信 度 达到 最 大 值 ， 
称 为 最 大 信和 度 (Fu et al., 2018; Hie 等 , 2019; 
叶 宝 娟 , 杨 强 , 2011)。 最 大 信和 度 即 可 用 于 通常 的 单 
维 测验 ( 叶 宝 娟 , 杨 强 , 2011) 和 多 维 测验 (Fu et al., 
2018)， 也 可 用 于 被 试 有 层级 结构 的 测验 ( 即 多 水 
平 测验 ; FAH 等 , 2019)。 

有 三 种 方法 可 以 估计 合成 信和 度 的 标准 误 进 而 
计算 合成 信和 度 的 置信 区 间 : Bootstrap 法 ( 屠 金 路 
等 , 2005), Delta 法 、 直 接 用 结构 方程 建 模 软件 输 
出 的 标准 误 。. 叶 宝 娟 和 温 忠 麟 (2011) 比 较 了 以 上 三 
种 方法 在 计算 单 维 测验 合成 信和 度 的 置信 区 间 中 的 
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表现 , 推荐 用 Mplus 软件 估计 Delta 法 的 单 维 测验 
合成 信和 度 的 置信 区 间 。 后 续 的 一 系列 研究 都 表明 ， 


时 候 使 用 显 变 量 分 析 已 经 足够 ,什么 时 候 需 要 洪 
变量 分 析 才 好 ,判断 的 主要 依据 就 是 量 表 的 合成 


无 论 单 维 还 是 多 维 , 是 否 偏 态 分 布 , 测验 误差 是 
否 相 关 ， 都 推荐 使 用 Delta 法 估计 合成 信 度 的 置 
信和 区间 ( 杨 强 等 , 2014a; 叶 宝 娟 ，2012; IEI, 
ik ARR, 2012a; 叶 宝 娟 , 杨 强 , 2014, 2015)。 
2.2.2 ”合成 信 度 与 内 部 一 致 性 、 同 质 性 的 关系 
内 部 一 致 性 可 以 定义 为 题目 之 间 的 相关 性 
(Revelle & Zinbarg，2009)， 如 果 同 一 维度 内 部 的 
题目 之 间 相 关 高 ， 则 内 部 一 致 性 高 。 对 于 多 维 量 
表 ， 内 部 一 致 性 应 当 理 解 为 同一 维度 内 部 的 题目 
之 间 的 相关 性 ， 而 不 是 全 部 题目 之 间 的 相关 性 。 
这 样 ， 合 成 信 度 可 以 理解 为 内 部 一 致 性 信和 度 


信和 度 。 两 个 显 变量 之 间 的 相关 系数 ， 等 于 两 个 相 
应 的 潜 变 量 之 间 的 相关 系数 乘 以 两 个 合成 信和 度 的 
几何 平均 ( 侯 杰 泰 等 , 2004)。 如 果 两 个 合成 信和 度 
都 超过 0.95 (题目 较 多 的 许多 量 表 都 满足 )， 使 用 
显 变量 分 析 与 使 用 潜 变 量 分 析 的 结果 差别 不 大 
否则 , 使 用 潜 变 量 分 析 较 好 。 对 于 回归 系数 ,关键 
是 自 变量 的 合成 信和 度 ( 因 为 因 变量 通过 残 差 考虑 
了 测验 误差 )。 使 用 显 变量 得 到 的 回归 系数 ， 等 于 
使 用 潜 变 量 得 到 的 回归 系数 乘 以 自 变量 的 合成 信 
度 。 如 果 自 变量 的 合成 信和 度 超 过 0.95, 使 用 显 变 
量 分 析 与 使 用 潜 变 量 分 析 的 结果 差别 不 大 ， 否 则 ， 


(Bentler, 2009; YEAR, HEH, 2011)。 同 质 性 高 
的 测验 ， 内 部 一 致 性 也 高 , 但 反 过 来 不 一 定 成 立 
(张力 为 , 2002)。 

可 以 证 明 同 质 性 系数 不 超过 合成 信和 度 (因为 
合成 信和 度 的 分 子 中 包含 局 部 因子 方差 )， 当 且 仅 当 
局 部 因子 不 存在 时 ( 即 单 维 )， 两 者 相等 ( 温 忠 鹿 ， 
叶 宝 娟 , 2011)。 不 论 误差 是 否 相 关 , 合成 信和 度 都 不 
超过 测验 信和 度 ( 温 忠 锯 ， 叶 宝 娟 ,2011D)， 即 同 质 性 
系数 和 合成 信 度 大 测验 信和 度 。 因 此 ,用 合成 信和 度 
来 估计 测验 信和 度 更 为 准确 。 温 忠和 乌 和 叶 宝 娟 (2011) 
总 结 出 一 个 测验 信和 度 分 析 流 程 ( 见 图 1)， 可 以 对 量 
表 合成 分 数 的 信和 度 做 出 评价 。 


确定 一 个 测验 
误差 相关 吗 ? 


ABE || ”未 能 确定 测验 
不 低 于 || 信和 度 可 以 接受 ， 
合成 信 停止 统计 分 析 


测验 信和 度 
不 低 于 
a 系数 


图 1 测验 信 度 分 析 流程 ( 温 忠 麟 ， 叶 宝 娟 , 2011) 


2.2.3 ”合成 信和 度 的 实际 意义 

研究 变量 之 间 关 系 既 有 基于 显 变量 (合成 分 
数 ) 的 分 析 ( 可 以 使 用 回归 模型 ) 也 有 基于 潜 变 量 
( 带 有 指标 ) 的 分 析 ( 可 以 使 用 结构 方程 模型 )。 什 么 


使 用 潜 变 量 分 析 较 好 。 
2.3 ”其 他 测验 信和 度 
2.3.1 单 指标 信和 度 

根据 真 分 数 模型 ,测验 中 的 单个 题目 是 无 法 
按 信 度 的 定义 计算 其 信和 度 的 。 但 基于 验证 性 因子 
分 析 ， 真 分 数 的 方差 也 是 可 以 估计 的 , 因而 可 以 
估计 单 个 题目 的 信和 度 ， 即 单 指标 信和 度 。 单 指标 信 
度 反 映 单 一 题目 得 分 受 潜 变 量 影响 的 程度 ， 其 值 
越 高 ， 表 示 真 分 数 所 占 的 比重 越 大 ( 方 敏 ，2009)。 
王 孟 成 和 叶 宝 娟 (2014) 给 出 了 计算 单 指标 信 度 的 
Mplus 程序 。 对 于 完全 标准 化 估计 , 题目 负荷 的 平 
方 就 是 单 指标 信 度 。 

2.3.2 ”整个 题目 集 分 数 的 信 度 

用 合成 信和 度 和 最 大 信和 度 衡 量 测 验 的 信和 度 是 有 
前 提 的 ， 即 测验 的 各 个 题目 可 以 相 加 得 一 总 分 。 
而 在 实际 应 用 中 ， 有 些 测验 的 各 个 题目 相 加 得 一 
总 分 并 没有 多 大 意义 ， 虽 然 此 时 仍 可 计算 合成 信 
度 及 最 大 信 度 , 但 没有 意义 。Alonso 等 (2010) 用 验 
证 性 因子 分 析 推 导出 了 两 个 新 的 信和 度 系 数 Rr 和 
Rao Rr 信 度 系数 是 用 观测 分 数 与 误差 分 数 的 方差 - 
协 方差 矩阵 的 迹 , 来 概括 观测 分 数 与 误差 分 数 的 
变异 得 到 的 ; 而 RA 是 用 观测 分 数 与 误差 分 数 方差 
- 协 方差 矩阵 的 行列 式 ， 来 概括 观测 分 数 与 误差 
分 数 的 变异 得 到 的 。 

叶 宝 娟 和 杨 强 (2011) 比 较 了 合成 信和 度 、 最 大 信 
度 、Rr 和 RA， 并 讨论 了 这 4 种 信和 度 系 数 估计 方法 
的 差异 : (1) 信 和 度 计 算 时 对 每 个 题目 分 数 的 处 理 方 
法 不 一 样 。 合 成 信 度 及 最 大 信 度 是 将 各 题目 分 数 
单位 加 权 或 不 等 加 权 合 成 总 分 , 计算 的 是 测验 总 
分 的 信和 度 , 而 Rr 和 RA 系数 计算 的 是 整个 测验 题 
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目 集 分 数 的 信和 度 。(2) 测 验 长 度 对 信 度 的 影响 不 一 
样 。 随 着 题目 的 增多 ,合成 信 度 不 一 定 变 大 ， 如 果 
加 入 质量 不 好 的 题目 (如 题目 的 因子 负荷 小 ), 合 
成 信 度 和 Rr 都 可 能 降低 ;而 最 大 信和 度 和 Ry 会 随 
着 题目 的 增多 而 增 大 。(3) 信 度 系 数 的 数值 大 小 不 
同 。 最 大 信 度 = RA 宇 合成 信和 度 宇 Rr。 


3 ”特殊 数据 类 型 的 测验 信 度 
前 面 介绍 的 信 度 用 于 常规 的 测验 数据 。 对 于 


了 追踪 数据 中 的 Rr 和 Ry, Rr All RA 既 可 估计 追踪 
研究 中 单个 时 间 点 的 测验 信和 度 ， 也 可 估计 整个 追 
踪 研 究 的 测验 信和 度 ， 推 荐 同时 使 用 Rr 和 RA 来 估 
计 追 踪 人 研究 的 测验 信和 度 ( 叶 宝 娟 等 , 2012)。 但 是 在 
非 线性 条 件 以 及 非 平衡 设计 等 条 件 下 ， 它 们 的 适 
用 性 还 有 待 进一步 的 研究 。 实 际 上 ,追踪 数据 还 
可 看 成 重复 测量 的 时 间 点 般 套 于 被 试 的 两 水 平 嵌 
套数 据 ， 用 两 水 平 信 度 测量 方法 进行 信 度 估计 。 
关于 Rr 和 Ry 与 两 水 平 信和 度 系 数 在 追踪 数据 的 信 


层级 结构 的 数据 (多 水 平 数据 )、 追 踪 研 究 的 重复 
测量 数据 (纵向 数据 ), 需要 有 相应 的 方法 得 到 更 
准确 的 信和 度 估计 。 
3.1 ”两 水 平 研究 的 信和 度 

在 心理 、 教 育 、 管 理 等 研究 领域 中 ,经 常会 
遇 到 两 水 平 的 数据 结构 ， 如 学 生 风 套 于 班级 中 ， 
员工 垦 套 于 企业 中 ,这 样 的 两 层 数据 结构 能 够 更 
准确 地 研究 变量 之 间 的 关系 。 叶 宝 娟 和 温 忠 及 
(2013b) 用 两 水 平 验 证 性 因子 分 析 模 型 推导 出 两 水 
平 研 究 中 单 维 测验 的 信和 度 公 式 , 无 论 组 间 因 子 负 
荷 是 自由 还 是 固定 都 适用 。 组 间 因 子 负荷 自由 佑 
计 的 两 水 平 研究 中 , 单 维 测验 信和 度 的 点 估计 可 用 
Mplus 软件 得 到 ( 叶 宝 娟 , 温 忠 刨 , 2013b)。 但 如 何 
得 到 单 维 测验 信和 度 的 区 间 估 计 还 亟待 解决 。 
田 雪 起 等 (2019) 以 两 层 数据 为 例 讨论 多 水 平 
研究 的 信和 度 估计 。 将 观察 分 数 分 解 为 层 1 真 分 数 
和 层 2 真 分 数 、 层 1 误差 和 层 2 误差 四 个 部 分 。 
然后 分 别 估计 层 1 信和 度 和 层 2 (ARE, 包括 层 1 和 
层 2 的 a 系数 、 合 成 信和 度 和 最 大 信和 度 。 例如 , 将 a 
系数 公式 分 别 应 用 于 层 1 的 方差 和 层 2 的 方差 ， 
得 到 层 1 的 a 系数 和 层 2 的 a 系数 。 他 们 使 用 
Mplus 软件 展示 了 如 何 利 用 两 水 平 验 证 性 因子 分 
析 计 算 两 水 平 多 维 测 验 的 信和 度 。 但 如 何 得 到 多 维 
测验 信 度 的 区 间 估 计 还 亟待 解决 。 另 外 ,， 刘 霖 芯 
等 (2018) 将 单 层 数据 (n 个 被 试 完成 k 个 题目 ) 看 成 
是 题目 艇 套 于 被 试 的 两 层 数据 (题目 为 层 1, 被 试 
为 层 2), 利用 两 水 平 模型 计算 a 系数 。 
3.2 ”追踪 研究 的 信和 度 

有 研究 者 用 体现 追踪 数据 特点 的 数学 模型 提 
出 相应 的 信和 度 估计 , 包括 基于 单纯 形 模型 的 pw， 
基于 概 化 单纯 形 模型 的 p(S,), 但 pv 和 p(Sw) 都 只 
估计 了 单个 时 间 点 测验 的 信和 度 ， 而 没有 给 出 整个 
追踪 研究 测验 的 信和 度 。 还 有 研究 者 基于 线性 混合 
模型 ， 利 用 前 面 介绍 的 计算 Rr 和 RA 的 思想 定义 
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4 其 他 用 途 的 测验 信和 度 


除了 用 来 评价 测验 (如 问卷 和 试题 ) 结 果 的 一 
致 性 外 ,信和 度 还 可 以 有 其 他 用 途 ， 例 如 评价 不 同 
评分 者 对 被 试 作答 的 评分 的 一 致 性 (评分 者 信 度 )、 
评价 不 同 编码 者 对 相同 文本 独立 编码 的 一 致 性 
(编码 者 信和 度 )、 评 价 认 知 诊断 属性 分 类 的 一 致 性 
( 认 知 诊断 属性 分 类 一 致 性 信 度 )、 评 价 培训 或 者 练 
习 效果 的 一 致 性 (差异 分 数 的 信和 度 ) 等 。 

4.1 评分 者 信和 度 

评分 者 信和 度 的 计算 方法 有 相关 法 ( 孙 晓 敏 ， 张 
RSS, 2005; 何 佳 等 ,2007; 蒋 小 花 等 ,2010)， 
FLAY LTR (PDEA, KER, 2005) 和 基于 概 化 理论 
的 方法 ( 严 芳 ， 李 伟 明 , 2002; 李斌 等 , 2011)。 相 
比 相关 法 和 百分比 法 ， 概 化 理论 对 评分 者 一 致 性 
的 佑 计 更 为 灵活 (所 需 前 提 假 设 更 少 , 适用 面 更 广 ) 
和 主动 (不 仅 可 以 得 到 概 化 系数 ,还 可 以 根据 所 得 
到 的 方差 分 量 估计 值 算出 为 达到 一 定 的 概 化 系数 ， 
选择 多 少 评分 者 是 合适 的 )， 孙 晓 敏 和 张 厚 紧 
(2005) 推 荐 用 概 化 理论 估计 表现 性 评价 中 的 评分 
者 信 度 。 

42 ”编码 者 信和 度 

检验 编码 者 信和 度 的 方法 有 归 类 一 致 性 指数 、 
编码 信和 度 系 数 、 相 关系 数 、 中 位 数 检验 、 概 化 系 
数 ( 徐 建 平 ， 张 厚 案 ，2005)。 其 中 ， 归 类 一 致 性 指 
数 是 指 对 编码 归 类 相同 数 占 归 类 总 数 的 百分比 ， 
因此 其 稳定 性 更 多 地 受 相 同 编码 数目 的 影响 ， 相 
同 编码 数据 越 多 ， 归 类 一 致 性 指数 越 高 ; 概 化 系 
数 则 受 编码 者 和 编码 题目 数量 的 影响 。 具 体 地 ， 
编码 者 侧面 、 以 及 与 编码 者 相关 的 交互 效应 变异 
分 量 越 小 ， 编 码 者 一 致 性 就 越 高 。 在 编码 题目 数 
量 较 小 时 ， 概 化 系数 的 增幅 较 大 ( 徐 建 平 ， 张 厚 妹 ， 
2005)。 


an 


al 


chinaXiv:202303.09602v1 


1688 心理 科学 进 


ChinaXiv 合 作 期 刊 


展 第 30 卷 


4.3” 认 知 诊断 属性 分 类 一 致 性 信 度 

对 于 认 知 诊断 的 属性 分 类 一 致 性 信和 度 的 点 估 
计 ， 可 用 改进 后 的 a 系数 法 ( 汪 文 义 AF, 2018), M 
分 相关 法 ( 郭 舌 ,， 张 金明 ，2018) 、 一 致 性 法 ( 郭 舌 ， 
张 金明 , 2018; 汗 文 义 等 , 2018) 、 基 于 Bootstrap 
的 积 差 相 关 法 和 修正 的 一 致 性 法 ( 郭 舌 ， 张 金明 ， 


( 叶 宝 娟 等 2013)。 他 们 还 以 区 间 覆 盖 率 为 衡量 
指标 ， 用 模拟 研究 证 明 Delta 法 的 合成 信和 度 元 分 
析 区 间 估 计 的 方法 是 得 当 的 。 另 一 类 是 信和 度 概 化 
(reliability generalization)， 信 度 概 化 是 概 化 理论 
的 应 用 , 它 是 以 某 一 特定 的 测验 工具 (如 问卷 ) 在 
不 同 研究 中 的 信和 度 系数 作为 研究 样本 ， 对 这 些 信 


2018) 进 行 估计 。 郭 舌 和 张 金明 (2018) 的 模拟 研究 
表明 , 积 差 相关 法 表现 最 优 (平均 偏差 的 绝对 值 更 
接近 0 和 误差 均 方 根 指标 最 小 ), 修正 的 一 致 性 法 
和 一 致 法 居中 ， 四 分 相关 法 最 差 。 

对 于 认 知 诊断 属性 分 类 一 致 性 信和 度 的 区 间 估 
计 ， 汪 文 义 等 (2018) 在 一 致 法 获得 属性 分 类 一 致 
性 的 点 估计 的 基础 上 ， 比 较 了 三 种 估计 信和 度 置信 
区 间 的 方法 : Bootstrap 法 、 平 行 测验 配对 法 和 平 
行 测验 法 ,推荐 使 用 Bootstrap 法 估计 认 知 诊断 属 
性 分 类 一 致 性 信和 度 的 置信 区 间 。 汪 文 义 等 (2020) 
进一步 发 现 ， 用 Bootstrap 法 估计 的 属性 分 类 一 臻 
性 信 度 平均 数 和 标准 误 在 不 同 研究 条 件 的 模型 选 
择 率 较 稳定 ， 总 体 表 现 较 好 。 
44 差异 分 数 的 信和 度 

差异 分 数 (也 称 增长 分 数 ) 是 指 同一 批 被 试 两 
次 测试 的 得 分 之 差 , 用 以 判断 培训 或 者 练习 的 效 
果 。 关 丹 丹 等 (2005) 给 出 了 差异 分 数 的 信 度 点 估计 
的 计算 公式 ， 差 异 分 数 的 信和 度 不 超过 两 次 测试 中 
信 度 相对 较 高 的 那 次 测试 的 信和 度 。 两 次 测试 的 信 
度 、 标 准 差 和 相关 都 会 影响 差异 分 数 的 信 度 


5 讨论 与 拓展 


新 世纪 20 年 来 ， 国 内 学 者 努力 探索 如 何 更 准 
确 地 估计 测验 的 信和 度 ， 既 包括 理论 层面 的 探索 (从 
经 典 测验 理论 一 概 化 理论 ; RELA, AR HIE, 
2001)， 也 包括 工具 层面 的 探索 (从 无 因子 分 析 模 
型 一 验证 性 因子 分 析 模型 一 双 因 子 模 型 )， 使 得 信 
度 领域 的 方法 学 研究 取得 了 长 足 的 发 展 ， 加 深 了 
我 们 对 信 度 的 认识 。 本 文 从 有 关 a 系数 的 研究 开 
台 ， 系 统 回 顾 了 这 期 间 国 内 有 关 信 度 的 研究 , E 
心 是 基于 验证 性 因子 分 析 模 型 的 信和 度 ， 也 包括 两 
水 平和 追踪 数据 的 信和 度 、 其 他 用 途 的 测验 信和 度 等 。 
但 也 还 有 一 些 尚 未 介绍 的 发 展 情况 需要 补充 一 下 。 

第 一 ， 国 内 信和 度 研究 在 信和 度 的 元 分 析 方 面 也 
有 发 展 。 信 度 的 元 分 析 有 两 类 研究 。 一 类 是 利用 


= 


变化 系数 模型 对 单 维 测验 的 合成 信和 度 进 行 元 分 析 ， 


提出 用 Delta 法 估计 合成 信和 度 元 分 析 置 信 区 间 


度 系数 作 再 研究 ， 探 究 影响 信 度 的 变量 ， 即 使 信 
度 系 数 发 生变 化 的 预测 源 ， 并 研究 与 信和 度 系数 有 
关 的 测量 条 件 及 因素 的 变异 性 ( 关 丹 丹 ， 张 厚 妹 ， 
2004; ER 等 , 2009)。 

第 二 , 已 有 一 些 学 者 尝试 在 传统 心理 测验 中 
引入 计算 机 化 自 适 应 测验 技术 (例如 ， 李 宇 斌 等 ， 
2020; TEAM, WAI, 2021; KÈK 4, 2020), 
但 目前 还 没有 合适 的 方法 估计 计算 机 化 自 适应 测 
验 信和 度 ， 有 待 研 究 。 

为 了 更 好 地 对 信 度 的 当下 研究 有 所 了 解 ， 下 
面 从 三 个 方面 介绍 国外 期 刊 信 度 研究 的 情况 ,或 
许可 以 发 现 一 些 值 得 未 来 探索 和 拓展 的 方向 。 
51 a 系数 该 不 该 放弃 ? 

McNeish (2018) 认 为 w 系 数 过 时 了 ， 建 议 用 合 
成 信和 度 、 最 大 信和 度 等 奉 代 a 系数 。Raykov 和 
Marcoulides (2019) 则 认为 ,在 某 些 条 件 下 , a 系数 
还 可 以 作为 信 度 的 估计 值 ， 不 用 放弃 。Sijtsma 和 
Pfadt (2021) 指 出 ， 即 使 题目 误差 相关 , a 系数 的 属 
性 仍 保持 不 变 。 国 外 学 者 现在 还 在 争论 的 这 个 问 
题 ， 国 内 学 者 在 10 年 前 已 经 说 得 相当 清楚 。 温 忠 
BERICE Si Q01 ENR Hh, EEK 
来 说 ， 假 设 误差 不 相关 是 合理 的 ， 如 果 a 系数 高 
到 可 以 接受 ,那么 测验 信 度 就 可 以 接受 。 因 而 对 
于 大 多 数 测验 来 说 , 计算 并 报告 w 系数 , 已 经 足 
以 支持 测验 信和 度 。 所 以 ,多数 情况 下 , a 系数 还 可 
以 继续 使 用 。 
5.2 ”有 关 合 成 信和 度 的 研究 

Edwards 等 (2021) 比 较 了 单 维 的 合成 信和 度 、 多 
维 的 合成 信和 度 、 信 和 度 的 最 大 下 限 和 a 系数 的 表现 ， 
结果 发 现 合 成 信和 度 和 o 系数 比较 准确 地 反映 了 总 
体 信 和 度 ， 且 信和 度 估计 受 样本 大 小 、 基 本 t+- 等 价 的 
违反 程度 、 总 体 信和 度 大 小 和 题目 数量 的 影响 。 合 
成 信 度 受 样本 大 小 和 题目 数量 的 影响 更 大 ， 特 别 
是 当 总 体 信 度 低 的 时 候 , 而 a 系数 对 违反 t- 等 价 
性 的 程度 比较 敏感 。 

Padilla 和 Divers (2016) 比 较 了 6 种 合成 信和 度 
的 置信 区 间 获 得 方法 (不 包括 贝 叶 斯 法 )， 结 果 发 
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现 bootstrap 置信 区 间 表 现 最 优 。Kelley 和 
Pornprasertmanit (2016) 比 较 了 4 种 信 度 系数 的 置 
信 区 间 , 包括 类 别 变量 的 合成 信 度 ， 建 议 使 用 
bootstrap 置信 区 间 。Pfadt 等 (in press) 提 出 在 贝 叶 
斯 框架 下 , 利用 Gibbs 抽样 得 到 信 度 系数 的 后 验 
分 布 后 ,估计 信和 度 系 数 的 可 信 区 间 。 模 拟 研 究 表 
WA, 在 无 信息 先 验 条 件 下 , 95% 的 贝 叶 斯 可 信 区 间 
与 95% 的 bootstrap 置信 区 间 相 当 。 

如 果 因 子 模型 有 跨 因子 负荷 却 被 忽略 ， 结 
会 如 何 ? Fu 等 (2022) 用 模拟 研究 比较 了 探索 性 结 
构 方程 模型 ( 麦 玉 娇 , 温 忠 腾 , 2013) 和 验证 性 因子 
模型 在 求 合 成 信和 度 中 的 表现 。 结 果 表 明 ， 基 于 探 
索性 结构 方程 模型 和 验证 性 因子 模型 得 到 的 合成 
信 度 相当 接近 ， 说 明 忽 略 跨 因子 负荷 对 合成 信和 度 
的 估计 影响 不 大 。 

Lai 等 (2020) 将 合成 信 度 拓展 到 多 水 平 模型 中 ， 
定义 了 6 种 适用 于 多 水 平 数据 的 合成 信和 度 指标 ， 
给 出 R 和 Mplus 程序 计算 信 度 的 置信 区 间 。 
53 ”基于 概 化 理论 的 信和 度 研究 

Scherer 和 Teo (2020) 指 出 信 度 概 化 存在 三 个 
不 足 : 信 度 系 数 估计 中 存在 不 切实 际 的 假设 (例如 ， 
a 系数 的 基本 t+- 等 价 假设 ); 忽略 量 表 总 分 和 分 量 
表 分 数 的 信和 度 系 数 的 相关 性 ; 不 同类 型 的 信 度 系 
数 之 间 缺 乏 可 比 性 。 他 们 提出 元 分 析 结 构 方 程 
(meta-analytic structural equation modeling, MASEM) 
来 解决 这 三 个 不 足 ， 进 行 信和 度 概 化 分 析 。ten Hove 
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Abstract: With the application of confirmatory factor analysis, research on reliability has entered a new 


stage. In the first two decades of the 21st century, the studies on test reliability in China’s mainland show 


three main lines of development. The first is the development of test reliability based on confirmatory factor 


models, including homogeneity coefficient, composite reliability, maximum reliability, etc. The second is 


the expansion of data types collected by scales, including the reliability of two-level data and longitudinal 


study. The third is the extended use of reliability, involving rater reliability, encoder reliability, etc. For a 


common test (with item-errors uncorrelated each other), if the coefficient a is high enough, test reliability is 


acceptable; otherwise composite reliability is recommended. If the composite reliability of every variable in 


a statistical model is very high (over 0.95), modeling with composite scores does not differ much from 


modeling with latent variables. Otherwise, it is better to use latent variable modeling. 


Key words: reliability, coefficient a, homogeneity coefficient, composite reliability, interval estimation 


